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摘 要 : AlphaGo 的 成 功 使 得 深度 学 习 方 法 在 计算 机 博弈 领域 得 到 广泛 关注 。 而 基于 深度 学 习 模 型 的 有 监督 训练 依 
赖 于 大 量 高 质量 标定 数据 ,但 众多 小 众 计算 机 博弈 比赛 棋 种 ， 存 在 缺少 人 类 对 局 记录 作为 训练 样本 的 问题 ,因此 在 使 
用 深度 学 习 模 型 前 如 何 生成 一 个 合理 标定 的 局 面 数 据 集 是 值得 研究 探讨 的 问题 。 针 对 点 格 棋 博 弈 问题 ， 提 出 了 一 种 
数据 哈 硕 去 重 以 及 局 面 标定 方法 。 根 据 不 同 阶段 回合 局 面 数 据 的 特点 ， 通 过 Alpha-Beta 完全 搜索 、 回 溯 标 定 、 并 行 
化 MCTS 算法 标定 以 及 对 称 扩 展 技 巧 ， 收 集 并 标定 不 同 回合 数 的 点 格 棋局 面 样本 。 实 验 共 获得 了 包含 15000000 个 
带 标定 点 格 棋局 面 样本 的 数据 集 ， 为 基于 深度 学 习 模 型 的 点 格 祺 有 监督 训练 提供 了 保障 。 此 外 ， 所 提 方 法 也 为 其 他 
棋 种 训练 数据 的 获取 提供 有 价值 的 借鉴 。 
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Study on chessboard configuration data calibration 
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Abstract: The success of AlphaGo has made deep learning methods widely concerned in the field of computer games. As 
we know, supervised training based on deep learning relies on a high-quality dataset consisting of a large amount of 
manually calibrated samples. However, many non-popular computer games are facing the problem of lacking human-game 
records as training samples. Therefore, how to generate a reasonably calibrated dataset of configuration data before using 
deep learning has significant value. In this paper, a data hashing and de-emphasis, and a configuration calibrated method are 
proposed for the dots and boxes game. According to the characteristics of configuration data at different stages, the proposed 
method makes use of full Alpha-Beta search, back-tracing search, parallel MCTS algorithm as well as symmetric flip 
extension to collect massive configuration data as training dataset. Experiment generates 15 million samples in total as the 
dataset to drive the supervised training model based on deep learning. In addition, the method proposed in this paper also 
provides valuable reference for the acquisition of training data of other chess games. 


Key words: data calibration; dots and boxes; chessboard configuration; computer game 


I 0 ”引言 的 标定 样本 进行 训练 , 才能 使 其 具有 良好 的 泛 化 效果 。 为 此 ， 

E s 如 何 为 小 众 比赛 棋 种 例如 点 格 棋 ， 在 训练 CNN 前 生成 一 个 
计算 机 博弈 就 是 让 计算 机 学 习 人 的 思维 模式 , 像 人 类 合理 标定 的 局 面 数据 集 ， 是 值得 研究 探讨 的 问题 。 本 文 主要 

样 ,能 够 思维 、 判 断 和 推理 ,作出 理性 决策 ,与 人 类 选手 或 另 一 ”以 点 格 棋 为 抓 手 ， 深 入 研究 棋盘 局 面 数 据 的 标定 问题 。 

台 计 算 机 进行 各 种 棋 类 的 对 弈 出 。 它 是 人 工 智 能 领域 的 挑战 - m z 

性 课题 ,， 是 人 工 智 能 领域 的 重要 研究 方向 。 目 前 中 国 和 国际 1 点 格 模 局面 表示 及 哈 希 去 重 法 

上 有 很 多 的 专家 学 者 在 开展 计算 机 博弈 研究 ,国际 机 器 博弈 格 棋 是 一 种 广为人知 的 双人 棋 类 游戏 ， 已 经 被 纳入 国际 

办 会 GCGA) 每 年 组 织 一 次 计算 机 博弈 大 赛 和 学 术 研 讨 会 ,中 计算 机 奥林匹亚 大 赛 和 中 国 计 算 机 博弈 大 赛 多 年 。 任 意 棋盘 

司 人 工 智能 学 会 计算 机 博弈 委员 会 每 年 也 举行 一 次 全 国 大 学 尺寸 的 点 格 棋 规则 如 下 : 在 一 定 大 小 的 、 均 匀 分 布 的 矩形 点 

生计 算 机 博弈 大 赛 暨 全 国 计 算 机 博弈 锦标 赛 ， 共 设置 了 点 格 年 中 ， 两 个 玩家 轮流 在 自己 的 回合 中 通过 画 水 平 或 竖 直 方向 


E) 


Tu 


棋 、 苏 拉 卡 尔 塔 棋 、 围棋 、 军棋 、 国际 跳棋 、 二 打 一 扑克 有 牌 ( 斗 ” 的 直线 ， 连 接 相 邻 两 点 。 若 玩家 画 线 后 ， 任 意 一 个 由 四 个 点 

地 主 ) 和 桥牌 等 17 项 棋牌 类 比赛 项 目 趾 ， 极 大 推动 了 计算 机 围 成 的 单位 方 格 被 封闭 ， 即 该 格 四 周 都 被 画 上 直线 ， 夯 线 玩 

博弈 在 世界 范围 内 的 发 展 。 家 占领 该 格 并 得 一 分 ， 随 后 得 分 玩家 必须 继续 行动 一 回合 。 
2015 年 DeepMind 团队 将 深度 学 习 技 术 引 入 计算 机 博弈 ” ” 当 无 法 再 画 线 ， 即 点 阵 中 所 有 格子 都 被 占领 时 ， 游 戏 结束 ， 

ZELS, 集成 深度 学 习 6 方 法 在 计算 机 博弈 领域 得 到 了 广泛 占领 最 多 格子 的 玩家 获胜 。 

关注 与 长 足 的 发 展 。AlphaGo 使 用 的 卷 积 神经 网 络 本 质 上 属 本 文采 用 11x11 二 维和 矩阵 抽象 地 、 格 式 化 地 表示 了 5x5 

于 监督 学 习 方法 ， 一 般 来 说 好 的 学 习 模型 的 生成 ， 需 要 大 量 ”点 格 棋 各 种 局 面 中 边 、 格 子 以 及 格子 归属 等 信息 。 如 图 1 左 
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上 两 个 图 所 示 。 其 中 ; 标记 R 的 块 表示 已 被 红 方 玩家 占领 的 。 边 与 S 行 6 列 共 30 条 竖 直 边 。 逐 行 分 别 为 水 平 边 与 竖 直 边 编 
格子 ; 标记 B 块 表示 已 被 蓝 方 玩 家 占领 的 格子 ; 每 个 代表 格 。 号 ， 并 使 用 30 个 比特 位 分 别 代 表 每 个 序号 对 应 边 的 占领 状 
子 块 上 、 下 、 左 、 右 四 个 方向 均 有 一 个 代表 边 的 块 ， 它 们 分 。 态 ， 则 可 以 使 用 两 个 整 型 数 分 别 描述 特定 点 格 棋局 面 的 水 平 
别 表示 棋盘 中 与 特定 格 的 状态 与 该 格 相 邻 的 四 条 边 的 状态 。 边 占 领 状态 与 竖 直 边 占 领 状态 。 特 定点 格 棋局 面 到 水 平 、 竖 
标记 1 表示 已 被 占领 的 边 ; 标记 0 表示 未 被 占领 的 边 。 直 边 占领 状态 的 转换 过 程 示例 如 图 1 所 示 。 红 方 玩家 得 分 、 
在 使 用 各 种 方法 标记 并 收集 点 格 棋 样 本 数据 时 ， 都 需要 ” 蓝 方 玩家 得 分 、 当 前 回合 归属 也 可 以 分 别 由 3 个 整 型 数 表示 。 
去 除 重复 样本 ， 提 高 数据 集 质量 。 为 了 节省 空间 开销 ， 提 高 。 综 上 ， 任 意 一 个 点 格 棋局 面 可 以 由 5 个 整 型 数组 成 的 五 元 组 
时 间 效 率 ， 记 录 局 面 样本 时 需要 获得 其 高 度 压缩 的 、 唯 一 芯 佳 一 表示 ， 该 五 元 组 则 可 以 作为 任意 已 收集 局 面 样本 的 键 ， 
标志 。 本 文采 用 建立 样本 哈 希 表 的 方式 来 记录 已 经 收集 的 局 ”在 哈 希 表 中 进行 唯一 标志 。 如 图 1 所 示 局 面 对 应 的 哈 希 表 示 
而 样本， 高 效 地 查 表 筛 选 收集 到 的 局 面 样本 ， 剔 除 其 中 的 重 形式 为 (123860205, 430258988, 1 2, 0) 。 
复 样本 ， 记 录 未 收集 过 的 新 样本 。 双方 玩家 得 分 确定 的 情况 下 ， 双 方 玩 家 占领 格子 的 具体 
有 具体 方法 是 将 点 格 棋局 面 采用 5 个 属性 唯一 地 描述 ， 水 位 置 分 布 可 能 不 同 ， 但 此 时 不 同 格 子 占领 状态 的 点 格 棋局 卫 
平 边 占领 状态 、 竖 直 边 占领 状态 、 红 方 玩家 得 分 、 蓝 方 玩家 ”在 局 面 评估 与 决策 选取 角度 看 是 完全 等 价 的 。 
分 、 当 前 回合 归属 。 点 格 棋 棋盘 中 有 6 行 5 列 共 30 条 水 平 
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水 平 边 


图 1 点 格 棋局 面 到 水 平 、 竖 直 边 占领 状态 的 转换 过 程 示例 


Fig.1 Example of a conversion process from a checkerboard situation to a horizontal and vertical edge occupation state 


随机 产生 局 面 作为 当前 局 面 ， 

博弈 过 程 中 一 般 随 着 下 棋 的 进程 ， 局 面 类 型 及 数量 在 不 b) 如 果 当 前 局 面 对 应 回合 数 大 于 最 小 完全 搜索 回合 数 
断 变化 , 相应 的 也 采用 不 同 的 策略 。 点 格 棋 一 般 在 60 回合 前 。 nlimit 进入 步骤 c， 和 否则 回 到 步骤 a); 
结束 。 根 据 不 同 阶段 回合 局 面 数 据 的 特点 ， 本 文 提出 第 28 c) 对 当前 局 面 执行 Alpha-Beta 完全 搜索 ， 记 录 搜 索 深 度 
至 59 回合 的 基于 Alpha-Beta 搜索 的 完全 搜索 标定 法 ， 第 23 —— depth; 
至 30 回合 的 基于 回溯 标记 算法 的 数据 标定 方法 ， 第 0 至 24 dÆ Alpha-Beta 完全 搜索 判定 当前 局 面 胜 利 进 入 步骤 
可 基于 并 行 化 MCTS 算法 的 局 面 样本 标定 方法 , 以 及 基于 对 e) TIEA f); 
称 翻转 原理 的 数据 扩充 方法 。 e) 将 当前 局 面 价值 标定 为 (1-depth)/(2*turn_sum)， 将 
2.1 完全 搜索 数据 标定 法 Alpha-Beta 搜索 确定 的 最 佳 着 法 选择 概率 标定 为 1， 其 余 着 

t osos 法 选择 概率 标定 为 05 
Alpha-Beta 搜索 ， 被 ) 于 计算 机 博弈 状态 树 的 搜索 中 。 将 当前 局 面 价 值 标 定 为 depth/Q*turn sum) ， 将 
于 Alpha-Beta 是 人 当 搜 索 深 度 可 以 触及 Alpha-Beta 搜索 确定 的 最 佳 着 法 选择 概率 标定 为 1， 其 余 着 


游戏 结束 的 局 面 时 ， 搜 索 结 果 将 会 是 绝对 正确 的 ， 另外， 笔 ”法 选择 概率 标定 为 0。 
者 通过 大 量 实验 发 现 , 点 格 棋局 面 尤其 是 接近 残局 的 局 面 下 ， 其 中 ，turn_sum 是 游戏 的 最 大 回合 数 。 


决策 近乎 唯一 。 因 此 ， 可 以 将 Alpha-Beta 搜索 结果 作为 当前 ^ — 2.2 回溯 数据 标定 法 

局 面 下 评分 最 高 的 决策 ， 该 决策 可 以 作为 样本 数据 的 策略 标 考虑 到 由 完全 搜索 进行 局 面 评 估 并 确定 局 面 优 劣 势 后 ， 

定 ， 而 该 决策 的 评分 则 可 以 作为 当前 局 面 的 评估 标定 。 优势 或 劣势 可 以 沿 博弈 树 中 树 根 到 当前 局 面 的 必 经 路 径 向 树 
本 文 实现 的 Alpha-Beta 搜索 提供 的 局 面 评估 值 在 [0,1] — 根 方向 传递 ， 并 随 着 回合 归属 的 翻转 而 翻转 ， 递 归 地 继续 标 


内 ， 其 中 优势 局 面 评 估 值 为 1， 劣势 局 面 评估 值 为 0, 评估 值 定 并 收集 局 面 样本 。 此 外 , 当 特 定局 面 被 评估 为 优势 局 面 时 ， 
越 大 优势 越 大 。 令 特定 局 面 的 评估 值 为 value, 则 局 面 回 合 归 ”” 若 其 前 驱 局 面 的 回合 归属 与 该 局 面相 同 ， 则 将 也 前 驱 局 面 也 
属 进行 翻转 时 ， 翻 转 的 局 面 评估 值 为 1-value。 表示 为 优势 局 面 。 因 为 前 驱 局 面 一 定 有 机 会 将 局 面 引 向 优势 
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合 数 比 较 靠 前 的 局 面 ， 进 行 一 次 完全 Alpha-Beta 
搜索 的 时 间 代 价 太 大 ， 而 点 格 棋 对 局 中 可 能 出 现 某 方 玩家 连 


续 得 分 的 情况 ， 


连续 得 分 期 间 回合 归属 不 变 ， 故 在 这 种 情 


DW, 优势 局 再 


评估 可 以 连续 地 向 博弈 树 根 节点 方向 传递 。 


Algorithm 1 


KE, 本 文 提 出 优势 和 劣势 两 种 情况 下 的 回调 数据 标记 算法 ， 
体 算 法 的 伪 代 码 如 图 2 所 示 : 


Backtracing Alpha-Beta Search Algorithm 


Input: data 
Output: ne: 
cording t 


set: a list of Alpha-Beta evaluated data; 


v-dataset: a list of newly evaluated data ac- 
o evaluations of data in dataset; 


: queue «— 0 


1 
2: for each 
3 


data in dataset do 


ENQUEUE(queue, data) 


4: end for 
5: while queue £ () do 
6: board + DEQUEUE(queue) 
7: precursors + GET PRECURSORS(board) 
8: foreach precursor € precursors do 
9: if precursors.size is 1 then 
10: if precur sor.color is board.color then 
11: precursor.value + board.value 
12: else 
13: precursor.value + (1 — board.value) 
14: end if 
15: else if precur sor.color is board.color then 
16: if board.value > 0.5 then 
17: precursor.value «— board.value 
18: end if 
19: else if board.value « 0.5 then 
20: precursor.value + (1 — board.value) 
21: else 
22: continue 
23: end if 
24: APPEND(new.dataset, precursor) 
25: ENQUEUE(queue, precursor) 


26: end for 
27: end while 


图 2 EAA 


Fig.2 Backtracing alpha-beta search algorithm 


HH, GET PRECURSORS 方法 按照 规约 的 点 格 棋 规 则 ， 获 


得 特定 局 面 的 所 有 合法 前 驱 。 使 用 回溯 标定 算法 时 ， 局 面 评 


a) 当 节 点 级 线程 互 斥 锁 处 于 空闲 状态 ， 可 以 被 写 状态 线 
程 或 读 状 态 线程 抢占 ; 

b) 读 / 写 状态 线程 都 首先 使 用 一 轮 
斥 锁 为 空闲 状态 ; 

c) 读 / 写 状 态 线程 在 确认 互 斥 锁 可 用 后 立刻 开始 第 二 轮 
循环 ， 尝 试 抢占 互 斥 锁 ; 

d) 若 抢占 失败 ， 返 回 b); 

e) 若 读 状态 线程 抢占 互 斥 锁 成 功 ， 将 以 互 斥 锁 中 的 原子 
变量 为 读 状 态 线程 计数 器 ， 人 允许 其 他 读 状 态 线程 共同 占用 互 
斥 锁 ， 不 允许 写 状 态 线程 占用 互 斥 锁 ; 

f) 在 所 有 读 状 态 线程 释放 对 互 斥 锁 的 占用 后 〈 原 子 变量 
归 0 ) ， 互 斥 锁 回 归 空 闲 状态 ， 人 允许 被 读 / 写 状态 线程 抢占 ， 
即 回 到 a) 状态 ; 

g) 若 写 状 态 线程 抢占 互 斥 锁 成 功 ， 将 以 互 斥 锁 中 的 原子 
变量 为 独占 标志 ， 不 允许 任何 其 他 读 / 写 状 态 线程 占用 互 斥 
锁 ， 直 至 该 线程 释放 对 互 斥 锁 的 占用 ; 

h) 若 节 点 级 线程 互 斥 锁 在 构造 实例 时 配置 成 有 退让 的 互 
斥 锁 , 互 斥 锁 占 用 状态 下 的 状态 节点 更 新 请 求 将 直接 被 无 视 ; 

i) 若 节点 级 线程 互 斥 锁 在 构造 实例 时 配置 成 阻塞 的 互 斥 
锁 ， 互 斥 锁 占 用 状态 下 的 状态 节点 更 新 请 求 将 被 阻塞 直至 互 
斥 锁 回 到 空闲 状态 。 
使 用 并 行 MCTS 算法 标定 第 0 至 24 回合 的 点 格 棋局 面 
样本 时 ，MCTS 博弈 树 的 根 节点 模拟 胜率 即 为 局 面 评 估 ， 根 
节点 所 有 分 支 节点 的 模拟 胜率 则 可 作为 决策 评分 。 


Item adding/Item existence 


mutex occupied? 


盾 环 等 待 确认 线程 互 


> 


do operation 


图 3 表 级 线程 互 斥 锁 抢 占 机 制 
Fig.3 Table-level thread mutex lock preemption mechanism 
2.4 对 称 翻 转 扩充 数据 法 
点 格 棋 棋 盘 为 中 心 对 称 的 正方 形 ， 故 点 格 棋局 面 经 
过 各 种 对 称 翻 转 仍 与 原 局 面 等 价 。 通 过 对 已 标定 局 面 的 
对 称 翻 转 , 可 以 成 倍增 加 已 标定 的 局 面 样本 。 由 如 图 4 可 见 ， 


佑 通过 传递 规则 获得 ， 局 面 评 估 的 传递 路 径 ， 即 是 对 应 局 面 
下 的 推荐 决策 ， 算 法 可 以 获得 第 23 至 30 回合 的 大 量 带 标定 


每 种 点 格 棋局 面 可 以 有 8 种 对 称 翻 转 形式 , 故 借助 对 称 翻 转 


的 点 格 棋局 面 样本 。 
2.3 并 行 MCTS 数据 标定 法 


第 23 回合 以 前 点 格 棋局 面 十 分 难以 通过 完全 搜索 或 回 


淹 标 定 算法 完成 评估 并 标定 ,本文 利用 蒙 托 卡 洛 MCTS 算法 


外 来 弥补 这 部 分 局 面 样本 的 空白 。 己 被 证 明 ， 随 着 模拟 次 数 


增加 ，MCTS 


算法 的 局 面 评估 与 决策 推荐 结果 收敛 于 极 大 极 


小 值 搜 索 外 ， 然 而 该 收敛 过 程 十 分 缓慢 ， 因 为 由 MCTS 算法 


是 供 准 确 的 局 


i 评估 与 决策 推荐 需要 大 量 的 模拟 。 


为 了 使 / 


] MCTS 算法 高 效 地 标定 足够 多 的 局 面 样 本 ,本 


文 改进 了 朴素 


值 。 


用 哈 希 表 数 据 结 
以 局 面 哈 希 值 为 键 ， 以 局 面 对 应 的 博弈 树 节点 的 搜索 状态 为 


的 MCTS 算法 。 本 文 所 述 MCTS 算法 实现 中 使 
构 存 储 博 弈 搜索 树 中 的 所 有 状态 节点 。 该 表 


本 文 在 搜索 状态 索引 表 中 添加 表 级 线程 互 斥 锁 、 节 点 级 


es 


线程 互 斥 锁 ， 共 两 个 粒度 的 线程 互 斥 锁 ， 并 启动 多 个 线程 


行 执 行 随机 模拟 过 程 ,在 线程 间 维护 同一 张 搜索 状态 索引 表 。 
表 级 线程 互 斥 锁 抢 占 机 制 如 图 3 所 示 。 


节点 级 线程 互 斥 锁 的 读 / 写 状态 抢占 机 制 步骤 如 下 : 


可 以 将 已 标定 的 点 格 棋局 面 样本 扩充 为 原来 数量 的 8 倍 ， 经 
过 局 面 样本 哈 希 表 的 过 滤 ， 仍 能 保留 大 量 的 增 量 局 面 样本 。 


对 


4 局 面 对 称 翻转 种 类 


Fig.4 Symmetric flip extension type. 


3 s 


通过 Alpha-Beta TERR, EWER, IT MCTS 算 
法 标定 以 及 对 称 翻 转 扩充 , 获得 了 共 包 含 15000000 个 带 标定 
点 格 棋局 面 样本 的 数据 集 。 用 C++ 语言 编译 实现 了 
Alpha-Beta 搜索 和 基于 CNN 深度 搜索 算法 ， 深 度 模 型 使 用 
Caffe 框架 实现 。 实 验 环境 为 : 用 g+ 5.4.0 编译 器 ，Ubuntu 
16.04 x64 系统 ，Intel® Core" i7-6700HQ CPU @ 2.60 GHz. 
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本 实验 主要 通过 实例 的 方式 ， 展 示 本 文 所 述 样本 的 标注 与 扩 


D 


其 中 一 种 针对 图 5 局 面 样本 回溯 的 样本 如 图 6 所 示 。 图 6 局 


展 方法 。 
3.4 搜索 标注 实例 

选取 图 5 所 示 局 面 样本 ,该 样本 对 应 局 面 轮 到 蓝 方 行动 ， 
该 局 面 的 哈 希 表示 形式 为 《758027384, 113572561, 3, 2, 1 ) 。 
该 样本 的 Alpha-Beta 完全 搜索 标注 结果 为 : 胜率 77.5%， 最 
佳 走 法 (type: vertical, row: 1, col: 4) 。 


Blue Turn 


e e -I. 
e 
K. 
e 
5 待 标注 样本 
Fig.5 Sample to be calibrated 
3.2 回溯 标注 实例 


根据 原样 本 的 标注 结果 ， 可 以 回溯 标注 数 百 个 新 样本 ， 
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MERKRA (758027384, 113556177, 3, 1, 10 > Æ 
文 将 图 6 所 示 样 本 与 原样 本 对 应 局 面 标 示 有 相同 的 蓝 方 胜 
率 ， 其 最 佳 走 法 为 (type: vertical, row: 2, col: 2) ， 该 样本 的 
MCTS 标注 结果 为 : 胜率 71.39%。 
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HE 


图 6 可 回溯 标注 样本 
Fig.6 Sample calibrated by back-tracing 
3.3 对称 翻转 扩充 实例 
经 过 对 称 翻 转 扩充 ， 可 以 得 到 7 个 与 原样 本 完全 等 价 的 
局 面 样本 。 如 图 7 所 示 ， 其 中 0 号 局 面 为 原样 本 图 5 所 示 局 
面 。 本 文 将 图 7 所 示 样 本 与 原样 本 对 应 局 面 标示 有 相同 的 胜 
率 ， 即 蓝 方 胜率 77.596. 
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Fig.7 Results of Symmetric flip extension. 


4 ARA 


本 文通 过 分 析 点 格 棋 的 规则 特点 ， 提 出 了 一 系列 样本 数 
据 标定 、 扩 充 、 去 重 方法 , 包括 : 基于 压缩 规则 的 Alpha-Beta 
搜索 的 完全 搜索 标定 法 ,基于 回溯 标记 算法 的 数据 扩充 方法 ， 
基于 并 行 化 MCTS 算法 的 局 面 样本 标定 方法 , 基于 对 称 翻转 
原理 的 数据 扩充 方法 。 有 效 获 取 到 不 同 回合 游戏 的 样本 数据 
并 有 效 标 定 ， 一 方面 为 深度 学 习 模 型 的 有 监督 训练 提供 了 保 
障 ， 另 一 方面 希望 为 其 他 小 众 比 赛 棋 种 训练 数据 的 获取 提供 
帮助 。 
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